查看原文
其他

产业之声 | 为AI供电-超万卡GPU算力集群的算电协同与零碳发展

阿里研究院 阿里研究院
2024-10-01

本文作者

阿里研究院AI产业研究中心:杨军、周搏、袁媛

阿里云采购部碳管理与能源采购团队:毛宏举、黄光舟阿里云基础设施事业部:王超、陆荣鑫


随着AI大模型技术的飞速发展,模型的参数规模和多模态能力不断提升,带来了对计算需求的快速增长,推动了万卡以上GPU算力集群的建设浪潮。GPU集群正从万卡向十万卡、百万卡的规模迈进,同时伴随着对能源消耗的快速增长,带来了GPU集群算电协同和零碳发展的新挑战。


我们在上篇探讨了GPU算力集群能源的全球挑战和中国可采取的应对方案(《智能背后的电能保障:GPU算力集群能源挑战的全球视角和中国应对》),本文将探讨如何借助AI大模型的发展契机,从优化模型训练和推理的计算效率、降低GPU集群核心软硬件的能耗、提升GPU集群的利用率、使用更多的可再生能源和算电双向优化调度等五个方面进行分析并提出建议,探讨迈向GPU集群的算电协同与零碳发展目标的可行路径。



AI大模型驱动算力集群规模不断增长


 随着模型的参数规模和多模态能力不断提升,前沿大模型(Frontier Models)参数量从数百亿级别跨越至万亿级别。这场大模型间的激烈竞争如同军备竞赛,不仅推动模型能力的不断突破,也对算力资源和相应的集群规模提出了前所未有的挑战。


微软、Meta、特斯拉等企业纷纷斥巨资投入新一代算力基础设施的研发与建设,争相构建规模更大的GPU集群。


  注:根据三家科技企业信息披露整理,算力单位全部等效为H100


尽管没有官方报道,但根据业内专家估量和券商测算可以了解OpenAI从GPT-4到预期中的GPT-5 和 GPT-6的算力需求和集群规模。如果前沿模型的性能达到预期,每两年相应的集群规模都按10倍跃升,由此可以理解,为何国外筹建集群规模都达到了10万卡H100级别,而此外微软和OpenAI 在筹备的星际之门(StarGate)达到了100万卡规模。由OpenAI前员工创立的Situational-awareness.ai做出了更为激进的预测:如果AI大模型训练和推理算力的规模保持每两年增长10倍的趋势,那么到2028年,最大的GPU训练集群将达到等效1亿张H100的规模,功率达到100GW,耗电将占到20%的美国电力总输出。



  注1:GPT-5测算来自于Semianalysis报告:GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE

  注2:GPT-6测算来自于券商报告,GPT-6发布时间,以及相对于GPT-4可能算力规模(1444-5400倍),取其估算下限


国内模型头部企业的模型能力已经接近甚至部分超过GPT-4,按业内假设GPT-5是更“完美”的多模态模型,国内的多模态能力确实还存在差距,也尚未布局GPT-6级别模型。所以国内GPU算力集群规模已突破万卡规模,头部厂商开始筹备10万卡集群,相对比美国落后一个数量级。暂不考虑芯片限售和国产卡单卡能力与H100的差别,考虑等效算力,国内集群规模的演进路线将会和美国一致,以万卡为主,向十万卡进发。



万卡及十万卡以上GPU集群的爆发建设带来的零碳发展和算电协同挑战


GPU集群爆发带来碳排放快速增长,对互联网行业的碳中和目标带来严峻挑战。在追求技术进步的同时,全球头部互联网企业还在加速推动绿色、可持续的算力集群建设,力求在保障业务增长的同时,实现对环境的责任承担和可持续发展的目标。2021年,微软承诺在2030年以前实现在任何时间段内,其所有电力消耗都由零碳能源供应。谷歌计划到2030年实现全天候零碳能源运营。Meta的承诺是在2030年以前实现其公司整体运营和价值链条上的全面碳中和。阿里巴巴集团于2021年12月提出不晚于2030年实现自身运营碳中和,并率先实现云计算的碳中和。然而,在设定这些较为激进的碳中和目标时,或许未曾预料到GPU集群近期的迅猛增长会带来碳排放量的急剧攀升,从而为上述目标的实现带来严峻挑战。


GPU算力集群的用电负荷与绿电发电功率输出更难协调,实现零碳算力集群更加困难。2021年以来,国家发改委等部门陆续出台数据中心的绿电政策,重视和推动数据中心的源网荷储一体化绿色供电模式创新、算力电力双向协同发展、绿电就近消纳等,提出至2025年新建数据中心绿电占比超80%,优化提升数据中心的能效管理和绿色评价机制设计等目标。但GPU集群用电特点与可再生能源并不匹配:GPU集群服务于大模型的预训练任务时,在数天和数月时间内是持续满负荷工作的。相比CPU集群,其预训练阶段需要保持相当长时间的负载峰值,而可再生能源,如水能、风能、太阳能等,具有季节性、间歇性、随机性等特点,因此与GPU算力集群的匹配性挑战更大。除成本较高的储能外,火电是当前主要的电力来源,但其碳排放量较高,大量使用很难实现零碳算力集群。


核能是GPU算力集群零碳发展的理想非化石能源,但其短期内有效供给受限。2023年,我国核能发电量占全国累计发电量的近5%,占比相对不高,并且能够供给新崛起的GPU算力集群使用的富余核能电力相对有限。新核电站因其建设周期长,短期内难以满足GPU集群的急切需求。美国企业除了抢占核电站发电资源用于数据中心建设,部分企业还在积极探索核聚变发电技术。2023年5月,微软等向核聚变企业Helion Energy投资,预计2028年可能上线50兆瓦的核聚变发电实验性项目。当前,可控核聚变从实验室走向大规模商用仍然面临着发电成本过高、技术不成熟等挑战,还需要长期的巨额投入进行研发,国际原子能机构此前预计,本世纪下半叶人类才能从核聚变中获得大规模稳定的电力供应。


单体GPU集群需要更多的电力供给,区域电力指标和碳排放目标可能限制集群的选址。以英伟达H100/H800组成的集群为例,一个十万卡GPU集群的额定功率约为13.9万千瓦,假设集群的PUE(电源使用效率)为1.25,年平均综合使用率为80%,年耗电量约为12.2亿度,为同等规模传统数据中心耗电量的3-5倍:能否为万卡及十万卡以上规模GPU集群提供足够的电力容量资源成为当前限制集群建设的重要因素。在阿里研究院公众号此前发布的《智能背后的电能保障:GPU算力集群能源挑战的全球视角与中国应对》一文中通过测算发现,从总体供需关系看,新增的GPU算力集群功耗远低于我国新能源装机容量的增长,但是新建设的超万卡和十万卡的GPU算力集群的选址可能因为区域性的能耗指标分配、电网网架结构、双碳政策等因素受到限制。


GPU算力集群促进算电协同

与零碳发展的方案思路与政策建议


面对万卡及十万卡以上GPU集群的建设浪潮,需要从需求侧和供给侧采取多方面的组合措施来促进算力电力协同发展,降低算力集群的整体碳排放。总结下来,可以从优化模型训练和推理的计算效率、优化GPU算力集群中核心软硬件的能耗、提升GPU算力集群的利用率、更多使用可再生能源和算电双向优化调度五个方面入手,探讨迈向GPU算力集群算电协同与零碳发展的可行路径。



思路一:持续创新大模型技术,优化模型训练和推理的计算效率。在大模型中,"token"通常指的训练和推理生成的基本单位,可以是单词、标点符号、数字、像素或其他元素。技术团队通过算法创新和模型结构创新实现了不断降低训练和生成一个token所需要的计算量。例如,采用MoE(混合专家)技术的大模型Mistral-7B×8-MoE,通过减少模型运行时候的激活参数,降低模型的算力开销,其效果超过LLaMA2-70B和GPT-3.5,推理速度快6倍,并且MOE架构正在不断优化,持续降低模型的算力消耗。此外,业界也在提出更节能的模型架构。例如,微软&清华提出Decoder-Decoder的新型架构YOCO(You Only Cache Once),超越GPT系列开创的Decoder-Only架构,在相同计算资源和性能接近的条件下,模型每秒可以处理token的数量提升到标准Transformer架构的9.6倍,大幅提升模型的计算效率。


【建议一】

鼓励企业与学术机构的合作,共同探索能效更高的AI模型架构。鼓励开源社区参与节能算法的研发和优化工作,通过竞赛或挑战激励创新。为开发低能耗AI模型的企业或团队提供政策和资金支持。


思路二:优化GPU集群中核心软硬件的能耗,降低单位算力的电力消耗。在《智能背后的电能保障:GPU算力集群能源挑战的全球视角与中国应对》一文中的第四部分已经分析了通过设计能效比更优的芯片和降低服务器能耗来提供更加高效的算力。此外,算力集群需要的电力在传输到 IT 设备之前,需要通过电压变换、电能质量提升、交直流变换等多个环节;如:交流不间断电源(UPS)和电源模块(PSU)等电力基础设施,将电网的交流电转化为IT设备使用的直流电。这些环节在满足IT设备用电的同时,也带来了功率损耗。随着GPU算力中心单体能耗的成倍上升,交流UPS等电力基础设施的功率消耗也增加到了可观的程度。目前部分超大型GPU算力集群在探索采用算力集群直流供电技术的新电气架构,不需要使用交流UPS设备,一方面可以减少交流UPS等算力集群电力基础设施的成本和电能损耗,另一方面可以更加高效地使用园区内部直供的绿色电力,降低算力集群的碳排放。


【建议二】

探索新型的高能效芯片与服务器技术,定期更新设备以提升运行效率。鼓励GPU集群时采用直流供电系统的技术创新和改造,降低能耗损失,并投资更高效的冷却技术如液冷系统。


思路三:提升GPU集群的整体利用率,最大限度减少IT设备空闲电力损耗。我国数据中心在CPU时代,使用效率相对很低,平均使用率不足5%,一台标准服务器即使是在完全没有工作的情况下也会消耗 30-40%的最大功率,意味着大量电能被无产出低效使用。将多个小型GPU算力集群的任务需求集合到超大规模算力集群,不仅可以提升设备利用率,还可以通过共享冷却及⽀持负荷的备份系统,减少总体能源消耗。劳伦斯伯克利国家实验室估计,如果美国小型数据中心 80%的服务器迁移到超大规模数据中心,用电量将减少四分之⼀。因此,在GPU时代,除了关注单卡的GPU性能,还需要重视采取措施提高设备的使用率,避免造成更大的电力浪费。基于公共云技术建设的超大规模GPU算力集群,通过高效的资源分配和任务调度技术,可以使多租户使用同一套计算资源,从而最大化资源利用效率,可以显著提升CPU和GPU的负载利用率,从而降低单位算力的能耗成本,这是提高GPU计算效率的最高效、最便捷的方式之一。例如,阿里云推出的GPU云服务器增强工具包DeepGPU,能够进一步优化云上GPU资源的性能,提升训练和推理的计算效率。基于云原生技术体系,实现异构算力资源切分的eGPU技术,能够将GPU资源按需切分,能使资源利用率提升 3 倍。


【建议三】

升级算力集群能效管理、绿色评价机制,制定GPU算力集群从可研到立项到投产后的阶段性的使用率指标及测算标准,将使用率指标作为新建算力中心的决策和考核因素之一。优先鼓励建设超大规模GPU算力集群,适度控制小规模GPU算力集群的建设规划。大力发展依托公共云技术的区域性算力平台,鼓励央国企算力优先使用已有的公共平台的算力,提升公共算力平台的使用率。


思路四:构建多层次立体式绿电供给,提升可再生能源的使用比例。多层次立体式绿电供给是一种综合利用算力集群所在园区、县市区域的场地、自然资源,开发分布式新能源发电、源网荷储一体化、集中式等新能源项目,充分利用现有政策、市场规则,参与省内和跨省绿电市场交易,以及绿证交易等多种手段,以提升绿电使用比例的系统性解决方案。这一方案旨在优化算力集群的能源结构,实现算力需求与绿电供给的有效匹配,推动算电协同和可持续发展。


首先,分布式新能源发电就地消纳,最直接高效。在GPU算力集群园区内或同一变电台区,充分利用建筑屋面、外立面、停车场和空地,建设分布式光伏、分散式风电、风光储一体化项目等;实现就近发电,绿电直接供GPU算力集群使用,减少传输损耗,降低用电成本和碳排放。


其次,源网荷储一体化项目成为GPU算力集群算电协同与零碳发展的关键抓手。源网荷储一体化项目是一种新型电力运行模式,它将电源、电网、负荷和储能作为一个整体进行规划和运作。这种模式可以在提高GPU算力集群新能源安全、稳定供应的同时,有效提高消纳新能源发电,提升新能源利用率。


第三,通过省内和跨省绿电交易,快速便捷降低碳排放。充分利用省内市场化绿电交易机制,GPU算力集群得以在本省范围内使用绿电,促进绿电的省内消纳。跨省跨区绿电交易进一步拓宽绿电获取渠道,突破了省域限制,GPU算力集群得以在全国范围内寻求最优绿电来源,促进全国范围内的算电协同。


第四,绿证交易作为零碳发展的补充手段。在绿电供给有限或市场化交易无法满足需求时,将购买绿证作为补充手段,通过购买绿证抵消碳排放,保证零碳GPU算力集群可以按需实现。

以上系列举措共同构建了多层次立体式绿电供给体系,不仅解决了算力的绿电需求,也促进了新能源消纳,推动了算力集群的能源结构优化,实现零碳发展。


【建议四】

首先,将GPU算力集群作为算电协同、源网荷储、微网的重要试点项目。源网荷储一体化项目,优先匹配GPU算力集群,优先支持将GPU算力集群作为源网荷储、微网项目的负载的项目申报。在新能源丰富区域,鼓励GPU算力集群运用源网荷储、微网等方式开展新能源和GPU算力集群协同发展,支持就近源荷匹配。


其次,扩大绿电交易市场规模,丰富交易品种,提升GPU算力集群市场化获取绿电的便利性。支持省内和跨省绿电、绿证交易,扩大跨省跨区交易品种和交易电量,提升跨区域的绿电消纳。提升新能源项目市场化交易电量比例,扩大市场绿电总量供应;常态化开展多年、年度、月度等绿电交易;扩大分布式新能源参与市场化交易范围。


最后,支持匹配GPU算力集群绿电需求新建新能源项目,优先安排开发指标,提升绿电长期稳定供给。鼓励重点GPU算力集群企业根据用电需求,确定新能源建设规模,在企业内部或周边地区,因地制宜开展新能源供电改革试点。支持GPU算力集群聚集区以重点园区为单位,根据园区整体用电需求,确定新能源规模,确保项目建成后,生产电量由园区内用电负荷全部消纳。建设核电等非化石能源直供算力集群的试点项目。


思路五:远期探索智能算力-电力在不同时间、空间尺度的双向优化调度,实现算电深度协同。我国智能算力需求方所在地域与绿色能源资源分布呈现空间、时间上的不均衡。GPU算力集群的用电负荷与其对应的算力负荷高度相关,算力跨集群转移就意味着电力负荷也做了相应转移。通过优化调度计算任务和算力资源在不同尺度的时空分布,可以提升绿电消纳,降低GPU算力集群的用能成本和碳排放。目前业界领先企业正在探索GPU算力集群的异地调度的技术方案,需综合考虑绿色电力供给、网络延时、算力负载均衡、成本最优等多因素,结合电力系统调峰信号,来探索对智算任务的跨地域调度。但受限于国内GPU资源的紧缺,头部平台企业在GPU算力集群的优化调度上暂无足够的冗余资源开展大规模技术应用。GPU算力与电力协同的双向优化调度远期具有潜在的经济和环境价值,但目前还面临着众多复杂的技术、业务资源和管理方面的挑战,离大规模推广应用还有一定的距离。


【建议五】

设立算力电力协同优化专项研究课题,鼓励产业与研究机构合作进行算力电力协同优化关键技术攻关和产业应用;出台支持政策,鼓励围绕算力-电力协同优化调度方面的技术创新、产品创新和商业模式创新。


结语


 GPU算力集群的算电协同与零碳发展是一个复杂而具有挑战性的课题。通过持续创新大模型技术、优化GPU集群的软硬件能耗、提升GPU集群的整体利用率、构建多层次立体式绿电供给、探索算电双向优化调度等多方面的组合措施,我们可以有效降低GPU算力集群的整体碳排放,推动GPU算力集群绿色转型,为实现“双碳”目标贡献力量。同时,政策的支持和引导也是推动这一进程的关键。我国已经出台了一系列相关政策,重视绿电消纳、零碳GPU算力集群和算电协同发展。通过将这些政策与技术创新、产业实践相结合,我们可以抓住GPU算力集群的爆发带来的机遇,应对挑战,推动我国的GPU算力集群行业实现绿色、可持续发展。



【附表】我国近年发布的算力集群零碳发展和算电协同的相关政策



【参考文献】

1、 《关于推进电力源网荷储一体化和多能互补发展的指导意见》, 国家发展改革委等,2021年3月

2、 《全国一体化大数据中心协同创新体系算力枢纽实施方案》,国家发改委等,2021年5月

3、 《关于深入实施“东数⻄算”工程 加快构建全国⼀体化算力网的实施意⻅》,国家发展发改委等,2023年12月

4、 《深圳市算力基础设施高质量发展行动计划》,深圳市发改委等,2023年12月

5、《situational-awareness :The Decade Ahead 》,Leopold Aschenbrenner,2024年6月



感谢阿里云IDC事业部晁怀颇、基础设施事业部黄彪对本文提供的数据、观点支持和技术指导。


 版块介绍 — 产业之声 


紧跟产业发展脉搏,我们汇集行业领袖与企业的真实声音,在算力基础设施的规划与布局、能耗优化、大模型能力发展、大模型评测体系、产业应用案例深入研究、新技术与应用趋势前瞻探索等方面,剖析成功案例背后的逻辑与挑战,并提供基于产业深度洞察的策略建议。同时,我们依托于阿里巴巴集团在人工智能领域的全面布局,分享阿里的AI产业生态和应用的实践落地,探讨技术如何重塑产业格局并推动社会经济的转型升级

推荐阅读

Reading

1、被“套壳”割韭菜,是谁在制造AI焦虑?

2、观察|“兼济天下”与“产业繁荣”:从中法联合声明看中国的“AI力”

3、智能背后的电能保障:GPU算力集群能源挑战的全球视角与中国应对

4、产业之声 | 阿里调研:生成式AI在电商场景的应用、前景与挑战

5、产业之声 | 生成式AI驱动的数据要素价值创造新模式

6、阿里云内部全面推行AI写代码,未来20%代码由通义灵码编写

7、安筱鹏:中国没有“百模大战”,也没有“十模大战”

8、达摩院AI助力农业育种,遗传学分析加速1000倍

9、安全治理与能力发展兼顾并重,Claude 3对中国大模型发展有哪些启示

10、【“人工智能+”深度案例】从智能工厂到ChatBI,雅戈尔的“智能+”实践

11、夸克:大模型时代,创造革新性搜索产品的探索之路

12、数字技术助力国产猕猴桃产业破解“即食”难题

13、AI驱动电商,淘天集团用科技定义商业

14、《自然·医学》刊登中国科学家关键突破:癌症筛查的黄金时代准备就绪

15、安筱鹏:制造业是AI大模型应用的主战场

16、【观点】阿里妈妈万相实验室首发上线 电商进入AI上新新时代

17、数字时代组织管理工具“钉钉HCM”重磅发布



- END - 


继续滑动看下一个
阿里研究院
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存